University of Utah, US
Booz Allen Hamilton, US
Pueden descargar la presentación en https://ggv.cl/udd-ene2024
Profesor de Investigación en Epidemiología de la Universidad de Utah.
Lead Scientist en la consultora Booz Allen Hamilton.
Doctor en Bioestadística de la Universidad del Sur de California (USC).
Magíster en Ciencias Sociales del Instituto Tecnológico de California (Caltech).
Magíster en Economía y Poíticas Públicas de la Universidad Adolfo Ibáñez (UAI).
“[L]a capacidad de un sistema para interpretar correctamente datos externos, y así aprender y emplear esos conocimientos para lograr tareas y metas concretas a través de la adaptación flexible.”
– Kaplan and Haenlein (2019)
AI es un sub-campo del aprendizaje de máquina.
Para algunos, AI y ML sólo es esadística sin preocupaciones. (tiene algo de cierto!)
En estadística buscamos hacer inferencias (causalidad,) mientras que en AI y ML buscamos predecir (correlación.)
La AI Generative es un sub-campo de la AI donde el foco es “crear contenido” .
Los modelos de redes neuronales que dan poder a la IA tienen más de …
Un componente fundamental: Las Redes Neuronales Artificiales.
Pero la tecnología necesaria tiene …
Más aún, estos modelos adquieren potencial sólo con grandes volúmenes de datos…
En términos sencillos, todos los modelos de IA y aprendizaje de máquina funcionan de la siguiente manera:
Obtener datos:
Diseñar modelo (arquitectura):
Qué variables de la BD se utilizarán (selección).
Como se procesarán los datos (hyperpárametros).
Definir criterio para aproximar los datos (función de pérdida).
Entrenar el modelo con set de entrenamiento (una parte de los datos).
Evaluar la calidad del modelo sobre los datos no usados para entrenar (set de validación.)
El último grito de la moda está con los llamados modelos de lenguaje grandes (Large Language Models.)
Estos se basan en una clase de modelos llamados modelos generativos (generative models.)
La clave: La función de pérdida de estos modelos se centra en predir sequencias.
También son implentados con redes neuronales.
NVidia tiene una muy buena descripción de estos modelos (Lee 2023):
Datos grandes. Típicamente entrenados en con datos que incluyen casi todo lo que se ha escrito en internet en un largo periodo de tiempo.
Redes neuronales. Se pasa la información a un algorithmo de AI no supervisado.
Secuencias + patrones. Los LLM “aprenden” palabras, relaciones entre ellas, y conceptos. La idea clave: Contexto.
Que viene después. Así como las personas pueden “adivinar” la siguiente palabra (patrones), también los LLM.
En el año …, utilizando “Big Data,” Google creo el servicio Google Flu Trends.
La idea era lógica: En los lugares donde la gente comienza a experimentar sintomas, las tendencias de búsqueda lo reflejarán.
El resultado: Embarazosamente para Google, no muy bueno:
Imagen del grafico
El diario New York Times [NYT] que ChatGPT reproducia contenido literal del diario.
El problema es que aquel contenido estaba protegido por un PayWall.
NYT terminó demandando a OpenAI y Microsoft (dueños de ChatGPT) por violación de derechos de autor (CNNEE 2023; Muñoz-Ledo 2024).
Midjourney is getting crazy powerful—none of these are real photos, and none of the people in them exist. pic.twitter.com/XXV6RUrrAv
— Miles ((mileszim?)) January 13, 2023
Un correo real que recibí durante el 2023:
Estimado Sr. Vega Yon,
Soy un académico en Alemania estudiando difusión en redes. Encontré (o mejor dicho, ChatGPT encontró) que su librería netdiffuseR aparentemente incluía una función llamada “multi.diffusion” para estimar exactamente ese caso. Parece que había un artículo de Wang, Robins y Pattison, “Competing Risks Diffusion in Networks: A Continuation Ratio Model with Time-Varying Effects” así como un Vignette llamado “competingrisks” disponible. Sin embargo, no pude encontrar ninguno de esos.
¿Cuál creen ustedes que fué el problema?…
¡Dicha función + paper + vignette nunca existieron!
En resumen, nuestro trabajo suguiere que los datos utilizados para entrenar los mejores LLM pueden ser extraidos con técnicas simples
– Traducido al español del artículo Nasr et al. (2023)
Utilizando el texto: “fontanero de video juegos”, los autores del artículo lograron extraer la siguiente imagen:
Imagen descargada de “Generative AI Has a Visual Plagiarism Problem - IEEE Spectrum” (n.d.)
Un texto simple: “captura de pantalla de peliculas populares”
Un motivo por el cual la AI y ML no se han tomado las ciencias por completo es claro (ver ejemplos anteriores).
El mínimo común de esos problemas: La falta de teoría (no teoría matemática).
Existe todo un campo en las ciencias de la computación para poder explicar los resultado de la IA/ML.
Incluso el ejército de los EEUU está invirtiendo en el asunto.
Pero con tanto hype, es difícil alejarse de esto.
Sin embargo, algunos científicos han comenzado a proponer algo distinto: Casar los modelos mecanísticos con la AI/ML.
Una idea simple
Las ciencias llevan cientos de años acumulando conocimiento.
En la física, por ejemplo, contamos con modelos que explican con gran detalle una parte importante de lo que observamos.
La AI/ML por otro lado tiene la ventaja cuando se trata de procesar cantidades masivas de datos.
Entonces, ¿Por qué no utilizamos ambos?
En mi propia investigación me he visto motivado a utilizar la AI/ML.
Desarrollé un modelo mecanístico de la evolución de los genes.
La clave: Incorpora información sobre los procesos que llevan a aparición de nuevas funciones genénicas.
Mi contribución: Incluir mis predicciones mecanísticas en un modelo de AI/ML.
Resultado: El modelo combinado superó a ambos por XXX.